DINOv3确实很“类脑”!Meta深度研究揭示模型、训练与数据的影响
近年来,一个引人入胜的现象是,先进的AI视觉模型在处理图像时,其内部的表征(representations)与人脑的神经活动惊人地相似。但这背后深层的驱动力是什么?是模型架构、训练数据,还是训练时长?为了解开这个谜题,来自Meta AI和巴黎高等师范学院的研究
近年来,一个引人入胜的现象是,先进的AI视觉模型在处理图像时,其内部的表征(representations)与人脑的神经活动惊人地相似。但这背后深层的驱动力是什么?是模型架构、训练数据,还是训练时长?为了解开这个谜题,来自Meta AI和巴黎高等师范学院的研究
DINOv3是Meta推出的自监督视觉骨干网络,最大的亮点是你可以把整个backbone冻住不动,只训练一个很小的任务头就能在各种密集预测任务上拿到SOTA结果。这对实际工程应用来说意义重大,因为大部分时候我们并不想重新训练一个几十亿参数的模型。
DINOv3是Meta推出的自监督视觉骨干网络,最大的亮点是你可以把整个backbone冻住不动,只训练一个很小的任务头就能在各种密集预测任务上拿到SOTA结果。这对实际工程应用来说意义重大,因为大部分时候我们并不想重新训练一个几十亿参数的模型。
无需人工标注,吞下17亿张图片,Meta用自监督学习炼出「视觉全能王」!NASA已将它送上火星,医疗、卫星、自动驾驶领域集体沸腾。
DINOv3的主要创新使用了自我监督学习,无需标注数据就能大幅度降低训练所需要的时间和算力资源。并且与前一代相比,DINOv3的训练数据大12倍扩大至17亿张图像以及大7倍的70亿参数。